大数据的三大理念解析

维克托·迈尔·舍恩伯格同学曾在他的作品《大数据时代》中总结了相对于传统的思维模式,大数据时代需要做出的三个转变,也可以说是大数据思维模式的三个理念。这里也不准备标新立异了,还是沿着这个思路。不过,对于这种观点,我们还是需要批判的看待,既不能像网上某些人的评论那样将其批判的一无是处,也不能不假思索的全盘接受。用马克思主义哲学的说法,只有使用去粗取精、去伪存真的方式,取其精华,弃其糟粕,才能真正了解其精髓,从而实现继承和发扬。

一、大数据的理念之:用全量代替样本

1841年埃德加·爱伦·坡发表了文学史上的第一部侦探小说《莫格街谋杀案》,尽管这部小说的解答有些欠抽,但不可否认,它开创了侦探小说的一种模式——“密室”,而这种模式被后来人所追随,以至于似乎没有写过这种类型小说的都不算是侦探小说作家。所谓的“密室”,就是在一个封闭的空间内犯下的凶案,终极目标就是解答出凶手的犯案方式以及如何从密室中逃脱。在一代又一代的侦探小说家的努力下,密室的难度越来越大,从正常人无法进入到所有人类都无法进入,直至正常情况下所有生物都无法进入。然而即便这样,如果严格来说的话,绝对的密室是不存在的,它肯定会有空隙,就算看起来密不透风也从微观的角度找到某些空隙。既然不可能达到绝对的封闭,只能使用相对的概念,对于正常人无法进入的空间都属于密室,否则整个侦探小说界就少了一个很重要的组成部分。

刚接触化学课的时候,接触到了纯净物和混合物的概念,与此同时也提到了,绝对的纯净物是不存在的,即使是再精确的提纯。于是,对于一种物质,只要没有提到存在杂质,默认按照纯净物来看待,否则就不仅仅是几道考试题的问题了,可能整个化学学科的研究都没法开展下去了。例如两种物质发生反应,如果按照实际情况都当作混合物看待,不断的纠结于各种杂质的问题,那就偏离了真正的研究方向。

举了上面两个貌似不相干的例子,想表达的观点就是,和多、少这类的相对概念一样,实际上全也是一个相对的概念,绝对的全也是不存在的。之所以这么说,主要有两方面的原因:

首先,当数据量超过一个范围之后,取得全部信息会很复杂,以至于可能根本是无法完成的任务。如果要获取一个学校所有学生的某个信息,这个很容易,只需要将全校的学生聚集起来一起获取,或者以班级为单位单独获取之后再进行汇总,因为一个学校不管有多大,学生人数都不会太大。而如果要获取全市所有人的某个信息呢,这似乎就是不可能的了:如果在大街上随机询问,对于那些不出门的宅男、宅女们的信息就没法获取;如果挨家挨户进行询问,对于那种经常不在家的就不太容易能遇到,而且那种无家可归的流浪汉的信息也没有办法获取;如果通过电话询问,也肯定有因为某种原因无非接电话的人,或者看到是陌生号码就是不接的;也许互联网可以解决这种问题,但肯定有那种一心只跳广场舞、对网络世界一窍不通的大爷、大妈们,就算是网络一族,也有可能因为不关注或者不感兴趣而对此完全无视。就算可以获取全市所有人的信息,那推广到全省、全国呢。要知道,所谓的所有人,包括那种没有户籍的“黑户”,以及那种隐姓埋名的在逃犯等人群。

就算这个问题可以随着技术的进步得以解决,那么接下来的问题就是在理论上都无法解决的,那就是有些属性是连续的,比如时间、空间的概念。就像无法穷尽(0,1)之间的所有有理数一样,取某个时间范围内所有时间点的某个信息,或者某个空间区域中所有位置的某个信息,从理论上讲都是不可能的,因为所有的数据都只能获取离散的信息点。

综上,获取全部数据,在理论上和实际上都是不可能实现的,那么就只能变通一下。对于第一种情况,可以缩小调查范围,只关注某种类型的信息,毕竟对于另外类型的信息有可能根本没有实际意义,比如电商们不会关注那些从来不网购的人们是怎么想的;同时默认,只要获取的信息量超过总量的一个比例,就认为它是全部数据。而对于第二种情况,可以通过细分相应属性来实现,比如在某个时间范围内每隔0.1秒获取一次信息,就可以认为是全部的时间点,毕竟这基本上是人类的最快反应速度,要知道,百米比赛中发令枪响之后0.1秒之内起跑的也属于抢跑。

当然,随着技术的发展,在数据全面这一点上,会越来越趋近这个目标。尽管离这个目标还有一定的距离,但现在已经默认我们掌握了全部的数据。之所以可以这样假设,是因为所谓的“大数据”,更多的是一种思想,通过这种思想可以得到之前无法得到的结论。

之所以这么说,是因为“大数据”思维和传统的思维有本质的区别。

记得当年学习关于抽样检验相关知识的时候,举过的一个例子,验证一批灯泡的使用寿命,需要随机抽取一定数量的灯泡,通过这些灯泡的测试结果来验证这一批灯泡的合格率大约是多少。由于灯泡在测试完之后就没法再使用了,所以无法采取全量的方式,因为如果那样做的话,最终得到的会是一个绝对正确的结论和一堆废品。

由于上述原因,只能通过抽样的方式进行这样的检验,于是形成了一套抽样检验的理论,包括如果进行随机抽样,以及形成了期望、方差等统计学概念,最终形成了概率论与数理统计这样的学科。

接下来的问题就是,对于那些没被抽样检测的灯泡,它的使用寿命信息就没有实际意义了吗?显然不是。如果通过某种方式可以获取了某工厂生产的所有使用过的灯泡的寿命(以目前的技术,这种信息应该是可以获取的),就可以得到一些可能更有用的信息,比如可以通过找到哪些因素可以让灯泡的使用寿命更长,提高制作工艺从而提升整体的产品质量。当然,这仅仅是最容易想到的,实际上能够获取的信息会更多。

而这种思维方式就是“大数据”的思维方式,它是处理那些已经完成历史使命的数据,在这种海量的历史数据中找出规律,从而对未来进行预测;或者找到相关的影响因素,从而改善方案以达到利益最大化。

数据,和普通的商品不同,并不会随着它的使用而消失;只要有足够的存储空间存放,它便会一直保留着。而“大数据”思维,恰恰是在处理这种已经使用过的数据,并从中获取到想要的信息。也许对于一次交易,只要结算完毕,交易信息就完成了历史使命;对于一次实时检测,只要得到结果并判断是否需要人工干预,检测信息就完成了历史使命;对于一次网络检索,只要找到需要的信息,查询结果信息就完成了历史使命……然而,只要把这些已经完成历史使命的数据都汇集起来,也许会得到意想不到的结果。因为随着数量的累积,它会慢慢的诱发质变。

中国古人有一句谚语:“熟读唐诗三百首,不会作诗也会吟。”西方侦探小说里的人物福尔摩斯也曾经曰过:“你掌握一百个案子的来龙去脉,第一百零一个案子一定不会在你的算计之外。”这两个貌似风马牛不相及的言论,恰恰反映了同一个理论,就是上学的时候物理课上经常讲的“量变到质变”的理论,只要量变达到了一定程度,就会带来质的飞跃。

其实分析一下,道理是一样的:

对于唐诗,只要被创造出来,抒发了诗人的情感,它就已经完成了历史使命。而通过熟读前人的诗词,只要达到了一定的数量(肯定是不止三百首了),以至于几乎熟读过所有前人的诗词,就能够分析出怎样才能写好一首诗,从而创造出新的诗篇来。

对于案件,只要经过调查分析,找到凶手及相关信息,最终结案,它就已经完成了历史使命。而通过研究前人侦破的案件,只要达到了一定的数量(肯定是不止一百个了),以至于几乎研究过所有案件的所有相关信息,就能够获得破案的思路和方法,从而当遇到新的案件时,就可以按照正确的侦破方向进行。

当然,上面的言论有人为拔高的成分,不能这些言论都算作大数据的思维方式,然而所谓的“大数据”思维方式肯定不是凭空产生的,而它的来源其实就是这种“量变到质变”的理论。毕竟,在一定的范围内,没有比全部数据的量更大的数据集了。

二、大数据的理念之:兼容不精确

自然博物馆,一游客问馆里的讲解员某个古生物化石距今有多少年,讲解员答曰:“五百万零二十年。”游客不解,问这二十年是哪儿来的,讲解员说:“我刚参加工作的时候,这个古生物化石距今有五百万年;我现在工作了二十年,所以,这个古生物化石距今有五百万零二十年。”当然,这仅仅是个段子。但从另一方面也说明了,当数量超过了一定的范围之后,其精确性已经不重要了。

然而,什么属于精确性呢?

上学的时候应该都听老师讲过这样的故事,说美国挑战者号出现故障即将坠毁的时候,给航天员对自己亲人做最后嘱托的机会。其中一个航天员对自己的儿子说,挑战者号之所以出现故障,就是因为错了一个小数点。当然,正常情况下这个时候老师都会用富含感情的话语表达,就那么一个小小的错误就导致了那么大的灾难,所以在以后的学习生活中,要认真、仔细、严谨……

先不去纠结这个故事是否是中国教育界的原创,仔细想一下,小数点的错误真的是一个小小的错误吗?

小数点本身是不会出错的,没有人会把它写成别的符号。这里说的小数点错误,只有一种可能,就是小数点的位置有误,包括该有小数点的地方没加小数点,以及不该有小数点的地方却加上了小数点,这意味着,整个的数量级都是错误的。而航天相关的计算中,很少使用加减法,更多的是乘、除,以及乘方等运算,这样会导致最终的结果也会出现数量级的错误,而这种错误,与正确结果至少相差十倍。这样看来,这个小数点还能算作小问题吗?

而与此同时,在高中物理课上,关于万有引力相关的部分(包括一些航天相关的),很多情况下的计算结果并不要求十分精确,只要数量级是正确的、并且前面的数值在某个范围内,就算正确,甚至高考的时候都是这样。也就是说,在这种特殊的领域,对于小数点后几位的值,是没必要十分精确的,尽管它的绝对数值也许会很大(如果数量级很大的话,小数点之后很多位所代表的实际数值也会是很大的)。

就像这部分开头的段子那样,对于人来说,二十年是一个很大的数量,人生能有几个二十年呢;但对于远古时期的化石来说,甚至两百年、两千年都是可以被忽略不计的。同样,对于地球上生活的人类来说,一公里是一个比较长的距离,但是在茫茫宇宙,它也是可以被忽略不计的部分。我们会用几万年前、几百万年前或者几亿年前来记录古生物所处的时期,会用光年作为单位去衡量宇宙中的距离,尽管这样的数值是不需要精确到具体多少年或者具体多少公里,但如果年限的数量级、光年前面的整数位数值都是错误的,那这样的数据也就是失去了它的意义。

这就是大数据所谓的不要求精确性,它仅仅是不去纠结于那些被忽略不计的小数点后多少位的具体值;然而,它并不意味着准确性也不做要求,如果整数位、甚至数量级本身就是错误的,那得出的结论就会与实际情况相差很远,也就失去了它的意义和价值。

当然,之所以可以不要求精确性,也是因为“大数据”处理的是历史数据。对于一些正在使用的数据来说,是需要精确性的:银行账户上的金额,以及支付宝、余额宝相关的交易金额,这些都是需要完全精确的,以保证社会的公平;某些观测数据也是需要精确性的,也许小数点后的某一位的区别,都可能得到不同的结果;甚至对于一些医疗相关的数据,也许几毫克的差别都会影响着一个生命是否会消逝;更别说还有其他意义更加重大的数据了。然而,等到“大数据”进行处理的时候,它实际上已经完成了历史使命,那么即使它不是十分精确,至少不会造成严重的后果。

而事实上,当数据量达到一定程度的时候,数据本身就无法保证其准确性了。比如,当每小时只测量一次的时候,可以认认真真、仔仔细细的进行测量,这样的数据可以说是准确的;但如果每几分钟就要测一次呢,就无法保证每一次都非常认真,就不可能十分精确;当每几秒钟就需要测一次的话,人工就无法实现了,必须借助工具,数据的准确程度就与相应的工具息息相关;而如果一秒中要测量多次呢,也许再精妙的工具都无法保证每一条数据都是非常精确的。

各种理论直接往往都是相通的,量子物理学里有一个“测不准原理”,而在大数据领域也有类似的原理,即在测量的密度增大之后,测量值的不确定性就会增加。当然,这并不能阻碍大数据的使用,因为这样的数据之间是可以进行相互印证的。

一般情况下,“大数据”是不会只使用一种数据来源的,它会将多个数据来源进行综合分析,从而实现各数据信息之间的相互印证。而这种互相印证的过程,也是去粗取精、去伪存真的过程,这样一来利用不精确的数据源,反而能够获得更加准确的结论。

不过,这导致了数据的结构化程度降低了。对于传统技术而言,一般处理的都是结构化的数据,即每条记录都有同样的结构,而且几乎包含了所有指标的信息。然而,“大数据”所处理的数据,还包含半结构化或者非结构化的,甚至是图片、音频、视频等非文本的。这也就是相对于传统技术而言,大数据技术的一个飞跃性的提升。

也许在面对这种所谓的“大数据”的情形,很类似一名警官面对一桩复杂的案件。在他的面前有各种线索:有可能让人的消化道不舒服的死者的状态,有现场的情况(包括实地观测及相关的照片信息),有与死者相关的人物信息及与死者的关系情况(主要是利益关系以及是否彼此之间有矛盾),有目击者或者相关人员的证词,有通过法医学测验得出的各种结论,甚至包括现场周围监控录像的内容……最终的目的就是将这些信息整合成一个完整的证据链,发现以及证明谁是凶手。类似的,这些线索中,有跟案件紧密联系的,也有跟本案毫无关系的干扰信息,也有因为种种原因导致的不完全准确甚至完全不准确的信息,甚至也有凶手为了干扰办案人员故意给出的假线索。当处理这些浩如烟海的线索的时候,不仅需要通过单个线索获得相应的结论,还需要将各线索的得出的结论进行综合分析、互相印证,这样才能最终得到正确的结论。

其实人生也一样,一方面,生活本身就是繁杂的(写这篇文章的方式也尽可能符合这一点,即尽可能包罗万象),“结构化”的只是其中的一小部分,更多的是“非结构化”的。

哪怕是仅仅作为一个“码农”,也是一样的:如果只了解所使用的技术,哪怕研究得再深入,那也是一个低层次的“码农”;想要成为一名高层次的“码农”,还需要了解一些看起来跟编码没有半毛钱关系的知识。

我们都知道爱因斯坦作为一名科学家所获得的成绩,而与此同时,他还是一个优秀的小提琴手,在音乐上也有很深的造诣。很难想象,如果爱因斯坦的脑子里只有一个个冰冷的物理公式,他是否还能做出这么大的成绩。

随着信息时代的到来,我们已经不需要陈景润式的人物了,更需要的是对多个领域都有所了解的人才,或者说是“一专多能”式的人才,这样才能整合各领域的信息,在更高的层面上有所建树。

另一方面,生活本身也是不完美的。当然,我们需要有追求完美的精神;但是,如果刻意的追求完美,一味的纠结于各种细节,反而会“因为一片树叶而失去了整个森林”。同样的,精确性是我们的努力的目标,但我们应该清楚,绝对的精确是不存在的。

三、大数据的理念之:更加关注相关规律

在这一点上,我们的维克托同学给出了一个“标新立异”的观点,即只关注关联关系,不关注因果关系。这也许是很多人,包括翻译那部作品的那位同学,坚决持反对态度的一个观点。然而,是不是我们没有理解作者的意图呢?

经过了八年的豌豆实验,孟德尔先生发现了遗传学的两大定律:分离定律和自由组合定律。而此时他发现的仅仅是关联关系,即对于某一类相对性状,存在显性和隐性,如果将两个不同性状的物种进行杂交,其后代呈现显性性状;而如果将这些呈现显性性状的第二代物种彼此之间进行杂交,其第三代中所呈现的显性性状与隐性性状的比例约为3:1。而至于为什么会是这样,以当时的情况,是无法解释的。

在此之后,科学家们在细胞核内发现的染色体,并在染色体中发现的遗传基因,同时也发现了染色体是成对出现的,以及在细胞的有丝分裂和减数分裂时染色体的状态,甚至发现了遗传基因的载体DNA的双螺旋结构。在此基础上提出的显性基因和隐性基因的理论,从而解释了孟德尔的遗传定律。

然而,这就是根本原因吗?显然不是,至少为什么第二代会呈现出显性基因的性状,这还是一个未解之谜。要想知道这个的原因,需要了解关于DNA的更多的信息,甚至在此之外还有更多需要研究的地方。

而这里的第一部分,我们可以理解成另外一个大数据分析的步骤,通过对海量的数据进行分析处理之后得到了一个关联关系。然后呢,就木有然后了。如果想要知道因果关系,即这个关联关系的相关原理,需要从理论高度进行研究,或者通过其他途径得到其本质原因,而大数据本身对此是无能为力的。

其实很多的科学研究的过程都是这样:先通过一些实验数据得到一个结论或者假说(即上面提到的关联关系),再通过理论推导或者更高层次的研究,了解其本质(即因果关系)。而大数据所扮演的仅仅是先前的实验过程而已。

故曰,之所以说大数据不关注因果关系,是因为它本身是无法得到因果关系的,并不是说因果关系不重要。

由于因果关系需要进行严谨的分析,甚至需要一点点的灵感,它并不是在短时间内能够得到的。而经过大数据分析,已经基本上可以保证关联关系的准确性,而且其本身还属于“仅供参考”的范畴,直接使用得到的结论,至少结果不会太糟(除非分析方法严重有误)。在追求效率的今天,这种“先斩后奏”还是值得尝试的。

况且,如果没有通过大数据得到的关联关系,对于相关因果关系的探求就没有了方向。所以说,大数据仅仅是第一步,唯一的区别就是,在没有得到因果关系之前,相应的结论就可以放心大胆的使用;而对于相应的因果关系,那是给想要获得诺贝尔奖的人们准备的。

 

推荐阅读文章

大数据时代需要了解的六件事

大数据框架hadoop十大误解

年薪30K的大数据开发工程师的工作经验总结?

大数据框架hadoop我们遇见过的问题

  • 14
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
学 术 论 坛 / A c a d e m i c F o r u m 94 孙建军 ( 陕西省标准化研究院 , 陕西 西安 710048) 摘要:本文从大数据的概念和核心思想入手,思考大数据的内涵和孕育的思想,试图从大数据的视角形成相应的认知与思 维方式。 关键词:大数据认知;智能化;大数据预测 1 大数据概念与特点 "大数据"(Big data)以多元形式,源自多领域、 多行业、不同层次,甚至不同的应用。大数据是需要新处 理模式才能具有更强的决策力、洞察发现力和流程优化能 力的海量、高增长率和多样化的信息资产。应用大数据的 意义在于通过挖掘和加工实现数据的增值服务。 想要认知大数据,可从以下几个方面从总体上有一个 概括性的了解。一是我们必须清楚它的来源。大数据的来 源众多,可以源自多领域、多行业、不同层次,甚至不同 的应用。如大数据可以来自互联网、政府、企业和个人等 方面。二是大数据构成。结构化、半结构化和非结构化数 据构成了大数据集,非结构化数据成为组成大数据的主要 部分。三是数据量庞大。是海量数据,从 TB 级别,跃升到 PB 级别。四是增长快。由于大数据的来源众多,其数据量 的增长要比传统快的多。五是关联性复杂。庞大的数据集 中隐藏着非常复杂的关联,数据之间彼此的相关性呈现出 多种关系。 六是应用价值高。 从大数据的基本特征可以看出, 需要发现并解析大数据的价值所在,并洞悉大数据的发展 趋势。在当以今云计算为代表的技术创新下,这些原本看 起来很难收集和应用的数据开始容易被利用起来,预示着 大数据会逐步为人类创造更多的价值。以上是我们对大数 据的一个基本认知。 从大数据概念中可以看出大数据具有的几个基本特征, 业界将其归纳为 4 个"V"——Volume(大量),海量数 据。Velocity(高速),处理速度快,一般要在秒级时间 范围内给出处理结果,这个速度要求是大数据处理和传统 的数据处理最大的区别。Variety(多样),数据来源复杂, 数据类型繁多。如文档、视频、图片、地理位置信息等等。 Veracity(真实性),大数据是客观的。数据分析的结果 具有客观和真实性。 技术是大数据处理和价值体现的手段, 分别从云计算、 分布式处理技术、存储技术和感知技术的应用来说明大数 据从采集、处理、存储到形成结果的整个过程。实践是大 数据的最终价值的应用。 2 大数据核心思想 有许多学科都经历了信息爆炸的时代,譬如天文学, 随之应运而生的就是"大数据"这个概念。如今,这个概 念几乎应用到了所有人类致力于发展的领域中。大数据标 志着人类在寻求量化和认识世界的道路上前进了一大步, 过去难于计量、存储、分析和共享的很多事物都被数据化 了,拥有大量且不一定非常精确的数据为我们观察和理解 世界打开了一扇新的大门,所以说以数据为核心的时代出 现了。我们基本上可以从三个维度来理解大数据及其价值。 首先从横向来看反映的是事物之间的联系,多重的关联向 我们展现出了以前不曾有过且丰富多彩的数据世界,事物 之间的相关和联系能够更加客观真实地增强我们的认知, 使我们对事物认识更加的深刻和全面,再看纵向呈现的是 事物之间的变化及其趋势。动态的变化使我们能够通过数 据观察到事物的状态,其变化则能进一步把握发展的方向, 和预测未来变化的趋势。那么从局部和整体看,由于大数 据具体而全面,能够客观地反映事物的整体,使我们能够 全面掌握事物的真实状态,以便客观地观察和把握事物的 现状。因此,由此可见大数据与传统数据不同,并为我们 展现出很高的应用价值。 从体量巨大、结构繁多的海量数据中,快速获得有价 值信息的能力,就是大数据技术。云计算在存储和计算上 都体现了数据为核心的理念。云计算为大数据提供了有力 的工具和途径,大数据为云计算提供了可有效利用的数据 资源。 2.1 客观反映整体 以前在传统数据时代,由于没有全数据,只能用局部 数据来反映整体,力求用最少的样本数据得到最为精准的 结论。 事实上从真实和客观性上来讲, 这是具有一定偏差的。 如我们常用统计学方法,通过抽样和一定的概率运算得到 的结果来预估全局和整体,并不完全客观与真实。如今, 随着云计算的发展,我们的数据处理能力有了很大的提高, 技术不再成为限制。我们的数据总量相比以前有了很大程 度的增加,而且这个总量在未来会越来越多,即样本会无 限接近于总体 . 用全数据代替随机样本,是为了能将影响结 果的所有可能性都都涵盖进去,为的不是精准,而是全面、 客观和真实。 但是,统计抽样我们还会做,在某些特定的领域,我 们依然会使用样本分析法,譬如,市场监管系统每年都要 进行质量抽检。具体做法是针对不同的产品类型制定不同 的抽检方案。在方案中要明确抽检的方法,批次和数量等, 检验完成后,依据检验的结果来判定整体产品
大数据:大变革、大机遇 作者:马建堂 来源:《决策探索》2015年第18期 从来没有哪一次技术变革能像大数据革命一样,在短短的数年之内,从少数科 学家的主张,转变为全球领军公司的战略实践,继而上升为大国的竞争战略,形成一股 无法忽视、无法回避的历史潮流。互联网、物联网、云计算、智慧城市、智慧地球正在 使数据沿着"摩尔定律"飞速增长,一个与物理空间平行的数字空间正在形成。在新的数 字世界当中,数据成为最宝贵的生产要素,顺应趋势、积极谋变的国家和企业将乘势崛 起,成为新的领军者;无动于衷、墨守成规的组织将逐渐被边缘化,失去竞争的活力和 动力。毫无疑问,大数据正在开启一个崭新时代。 大数据时代有什么本质特征?大数据的来源是什么?大数据又将流向哪里?大 数据在提升政府治理、改善经济治理、再造公共服务模式、激发商业创新方面有哪些卓 越案例?中国需要怎么样的战略反应才能抓住大数据带来的宝贵机遇?一系列问题亟待 研究者给出深入解析。 "数据驱动发展"成为时代主题 如今,大数据已经被赋予多重战略含义。从资源的角度,数据被视为"未来的石 油",作为战略性资产进行管理;从国家治理角度,大数据被用来提升治理效率、重构治 理模式、破解治理难题,它将掀起一场国家治理革命;从经济增长角度,大数据是全球 经济低迷环境下的产业亮点,是战略新兴产业的最活跃部分;从国家安全角度,全球数 据空间没有国界边疆,大数据能力成为大国之间博弈和较量的利器。总之,国家竞争焦 点将从资本、土地、人口、资源转向数据空间,全球竞争版图将分成新的两大阵营:数 据强国与数据弱国。 宏观上看,由于大数据革命的系统性影响和深远意义,主要大国快速做出战略 响应,将大数据置于非常核心的位置,推出国家级创新战略计划。美国2012年发布《大数 据研究和发展计划》,并成立"大数据高级指导小组",2013年又推出"数据一知识一行动 "计划,2014年进一步发布《大数据:把握机遇,维护价值》政策报告,启动"公开数据行 动",陆续公开50个门类的政府数据,鼓励商业部门进行开发和创新。欧盟正在力推《数 据价值链战略计划》,英国发布《英国数据能力发展战略规划》,日本发布《创建最尖端IT 国家宣言》,韩国提出"大数据中心战略"。中国多个省市发布了大数据发展战略,国家层 面的《关于促进大数据发展的行动纲要》也于2015年8月19日正式通过。 微观上看,大数据重塑了企业的发展战略和转型方向。美国的企业以GE提出的 "工业互联网"为代表,提出智能机器、智能生产系统、智能决策系统,将逐渐取代原有 的生产体系,构成一个"以数据为核心"的智能化产业生态系统。德国企业以"工业4.O"为 代表,要通过信息物理系统(CPS-Cyber Physica] System),把一切机器、物品、人、服务、建筑统统连接起来,形成一个高度整合的生 产系统。中国的企业以阿里巴巴董事局主席马云提出的"DT(Data Techn0109Y)时代"为代表,认为未来驱动发展的不再是石油、钢铁,而是数据。这三种 新的发展理念可谓异曲同工、如出一辙,共同宣告了"数据驱动发展"成为时代主题。 与此同时,大数据也是促进国家治理变革的基础性力量。正如《大数据时代》作 者舍恩伯格在定义中所强调的,"大数据是人们在大规模数据的基础上可以做到的事情, 而这些事情在小规模数据的基础上是无法完成的"。在国家治理领域,阳光政府、责任政 府、智慧政府建设,大数据为解决以往的"顽疾"和"痛点"提供了强大支撑;精准医疗、 个性化教育、社会监管、舆情监测预警,大数据使以往无法实现的环节变得简单、可操 作;大数据也使一些新的主题成为国家治理的重点,比如维护数据主权、开放数据资产 、保持在数字空间的国家竞争力等。 从哲学意义上来看,大数据不仅仅是一场技术革命,也不仅仅是一场管理革命 或者治理革命,它给人类的认知能力带来深刻变化,可谓是认识论的一次升华。具体而 言,大数据可以为决策者解决4个问题,提升两种能力。一是解决"坐井观天"的问题,以 往人们决策只能基于视野之内极为有限的局部信息,和井底之蛙无异,大数据则可以实 现整个苍穹尽收眼底;二是解决"一叶障目"的问题,以往不具备全样本数据分析能力, 只能用小样本分析近似推理,犹如从"泰山"中取来"一叶",而真理可能存在于全样本的 海量数据之中,借助大数据则可完全克服;三是解决"瞎子摸象"的问题,7个瞎子根本无 法根据各自的认识加总出完整的大象,因为他们的信息是相互离散的,无法有效关联起 来,而大数据的基本优点是在深入关联中还原事物的原貌;四是解决"城门失火,殃及池 鱼"的问题,人们习惯于因果分析,遇到这种"稀奇古怪"的因果链则很难前瞻和推理,但 大数据注重相关关系,可以准确地发掘出规律。提升两种能力,一个是"一叶知秋"的能 力,体现大数
近来数据中台概念大火,大家对它的定义也五花八门,不一而足。但无论怎么定义,一 个完善的数据技术架构必不可少。了解这些架构里每个局部的位置,功能和含义,不仅 能让我们更好了解数据产品的范围和边界,知道技术能帮我们实现什么,能怎么实现得 更好,另一方面,很多技术的设计理念对我们认知世界,了解复杂系统也会有所裨益。 因此这篇文章旨在梳理市面上常见的开源技术方案,背后原理及应用场景,帮助产品经 理对大数据技术体系有个大致全面的了解。 一般来说,我们将数据整个链条区分为四个环节,从数据采集传输,到数据存储,再到 数据计算&查询,到后续的数据可视化及分析。框架图如下: 1. 数据采集传输 这个一般对应于公司的日志平台,任务是将数据采集后缓存在某个地方,供后续的计算 流程进行消费使用。 针对不同的数据来源有各自的采集方式,从 APP/效劳器 日志,到业务表,还有各种 API 接口及数据文件等等。其中因为日志数据有数据量多,数据结构多样,产生环境复杂等 特点,属于「重点照顾」的对象。目前市面针对日志采集的有 Flume,Logstash,Filebeat,Fluentd ,rsyslog 几种常见的框架,我们挑应用较广泛的前两者介绍下: 1.1 Flume 和 Logstash Flume 是一款由 Cloudera 开发的实时采集日志引擎,主打高并发,高速度,分布式海量日志采集。它是一种提供 高可用、高可靠、分布式海量日志采集、聚合和传输的系统。Flume 支持在日志系统中定制各类数据进行发送,用于采集数据;同时,它支持对数据进行简 单处理,并写到各种数据接收方。目前有两个版本,OG和NG,特点主要是: 1. 侧重数据传输,有内部机制确保不会丢数据,用于重要日志场景 2. 由java开发,没有丰富的插件,主要靠二次开发 3. 配置繁琐,对外暴露监控端口有数据 Logstash 是 Elastic.co 旗下的一个开源数据收集引擎,可动态的统一不同的数据源的数据至目的地,搭配 ElasticSearch 进行分析,Kibana 进行页面展示,是著名的 ELK 技术栈中的「L」局部。特点主要是: 1. 内部没有一个persist queue,异常情况可能会丧失局部数据 2. 由ruby编写,需要ruby环境,插件很多 3. 配置简单,偏重数据前期处理,分析方便 从两者的设计思想来看,Flume 最初并不是为了采集日志而设计,而是定位在把数据传入 HDFS 中,这和 Logstash 有根本的区别。所以它理所应当侧重于数据的传输和平安,且需要更多的二次开发和配 置工作。而 Logstash 明显侧重先对日志数据进行预处理,为后续的解析做铺垫。它搭配 ELK 技术栈使用起来比拟简单,更像是为你准备好的便当,开盒即食。 1.2 日志采集如何工作 我们以 Flume 为例子讲些日志采集 Agent 是怎么工作的。 Flume 由三个局部组成:Source,Channel 和 Sink,对应于采集,缓存和保存三个环节。 其中,Source 组件用来采集各种类型的数据源,如 directory、 、kafka 等。Channel 组件用来缓存数据,有 memory channel,JDBC channel和 kafka channel 三种。最后再通过 Sink 组件进行保存,分别支持 HDFS,HBase,Hive 和 Kafka 四种存储方式。 下面结合一个大数据实时处理系统阐述下 Flume 在实际应用中所扮演的重要角色。该实时处理系统整体架构如下:通过将 Agent 部署在 Web 效劳器,一旦发生新增的日志数据,就会被 Flume 程序监听到,并且最终会传输到 Kafka 的 Topic 中,再进行后续的一系列操作。 1.3 数据传输 Kafka Kafka 最初是由领英开发,并随后于 2021 年初开源, 并于 2021 年 10 月 23 日由Apache Incubato 孵化出站。该工程的目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。其 持久化层本质上是一个"按照分布式事务日志架构的大规模发布/订阅消息队列〞,这使 它作为企业级根底设施来处理流式数据非常有价值。 2. 数据存储 数据库存储方面,有单机/分布式、关系型/非关系型、列式存储/行式存储三个维度的划 分,各种维度交叉下都有对应产品来解决某个场景下的需求。 在数据量较小的情况下,一般采取单机数据库,如应用非常广泛,技术成熟的 MySQL。数据量大到一定程度后,就必须采取分布式系统了。目前业界最知名的就是 Apache 基金会名下的 Hadoop 系统,它根本可以作为大数据时代存储计算的经典模型。 HDFS HDFS 作为 Hadoop 里的分布式文件系统,为 HBase
大数据平台引领服务模式大变革 作者:暂无 来源:《华东科技》 2015年第9期 大数据分析作为发现知识的过程,在各行各业的决策支持活动中扮演越来越重要的角色。 文 罗婷 随着"大数据"时代的来临,人们面对数据信息量从TB级跃升至PB级的极度膨胀,受到"信息爆炸"、"混沌信息空间"和"数据过剩"的巨大压力。大数据分析作为发现知识的过程,在各行各业的决策支持活动中扮演越来越重要的角色。 为推动上海大数据产业的发展,围绕上海产业技术研究院"开放创新、服务产业"的理念,通过联合产学研机构及行业数据资源合作伙伴,聚焦大数据的应用创新和合作共赢,打造面向科技与工程的大数据共享服务平台,汇聚数据资源、数据应用、数据服务于社区平台中,以实现产业资源的汇聚和产业链整合,形成共享互动的服务模式。 汇聚信息通信领域资源,引领数据创新应用 上海理想信息产业(集团)有限公司作为服务于国内电信运营商和大中型企业ICT服务提供商,在数据分析挖掘与应用领域具有多年研发经验,始终以大数据为当前的重要战略方向,在大数据领域投入了大量资源,开展相关技术研究和应用推广工作,为大数据共享平台在通信领域更好地发挥服务功能起到非常大的资源和技术支撑。 理想信息作为中国电信全资子公司,凭借其多年中国电信集团公司和上海MBOSS实施经验,对于电信数据规范、数据类别具有深刻理解,并对大数据运营所需要的产品管理、合同管理、合作伙伴管理、计费、结算等领域具有丰富经验。作为中国电信最早从事大数据研究和核心产品开发的技术团队,理想信息承载了多个中国电信大数据服务内部支持和外部服务的重要任务,围绕电信大数据,发挥大数据研究与应用的先发优势,努力成为数据创新应用引领者、数据服务支撑者、关键技术与产品提供者。 理想信息在电信大数据技术与业务创新方面具有天然的数据优势。上海电信拥有互联网大数据涉及以下几个方面:上海用户固网宽带网络、移动网络的行为数据,包含网页浏览记录、关键词搜索记录、时间、时长、设备信息和下行流量等关键数据,并实现了实时采集与处理;上海电信移动基站定位信息,包含电信移动网用户实时所处地理信息数据、商圈信息、设备信息和逗留时间/时长信息;ChinaNet、iSHanghai的用户注册和上网数据等。 "可以说,上海电信拥有海量互联网大数据,数据种类多、体量大、质量高、覆盖广。同时,所拥有的用户IPTV使用行为数据,包含浏览、点播、回访的栏目、节目、时长、次数等关键数据,以及用户固话、移动网的主叫/被叫的话单详细数据等,也可为互联网大数据提供数据资源的补充,可以有效整合为互联网用户行为类信息大数据资源。"理想信息总经理丁富强告诉记者。 "这些数据资源的先天优势,为互联网大数据的创新应用提供了基础数据资源支撑,这是所有互联网厂商所望尘莫及的。"丁富强表示。据了解,目前,理想公司自有的大数据平台集群规模为500台,数据总量超过4000TB,日数据处理量超过5TB,以上各类数据均已经实现的实时采集分析。 大数据平台引领服务模式大变革全文共4页,当前为第1页。 大数据平台引领服务模式大变革全文共4页,当前为第1页。 同时,理想信息通过和大数据领域的协作应用单位的深入合作,在大数据领域的研究和开发领域具备了雄厚的核心关键技术攻关能力,已经在大数据安全管理、流式处理、汇聚清洗、数据挖掘与分析、互联网账号关联、客户识别、互联网标签服务、高并发查询等关键技术领域取得多项研究成果,并申请大数据平台安全评估定量分析方法、一种网络实体标签分类方法等发明专利,拥有大数据平台安全运行监测评估软件、Hadoop管理软件、互联网标签软件、大数据安全管理和流式处理等软件著作权。 此外,理想信息还构建了面向互联网数据测试与服务平台——"数据魔方",利用电信运营商的智能管道数据和互联网线上数据,融合用户行为分析与企业舆情,形成自助式的数据探索平台,面向有大数据运营需求的各类企事业单位,重点包括电子商务企业、娱乐业(游戏、视频、音乐)、互联网媒体和搜索平台、餐饮业、政府类(市民热线、公共服务平台)、虚拟运营商/转售商等企业,为客户提供多维度的行业竞争分析数据以及互联网数据延伸服务。 大数据分析挖掘,打造互联网广告营销生态系统 传漾科技作为中国智能化数字营销的先导,是大数据共享平台在互联网广告领域又一个成功的应用和服务案例。传漾科技以业界领先的广告发布和数据解析技术为驱动,高效整合媒体资源,充分掌握网络受众行为,将数字营销从精准、高效提升至全程、智能,帮助客户在数字营销领域更智能、更简捷。 自2009年成立以来,传漾科技始终致力于网络广告技术平台和营销平台的创新突破,凭借优秀的技术实力和高效的执行团队,迅速发展为中国互联网广告领域技术流的杰出代表。 在国内程序化购买技术领域,传漾科技可以说一直走在最前沿,致力于网络广告技
大数据:大变革、大机遇 作者:马建堂 来源:《中国经贸导刊》2015年第28期 从来没有哪一次技术变革能像大数据革命一样,在短短的数年之内,从少数科 学家的主张,转变为全球领军公司的战略实践,继而上升为大国的竞争战略,形成一股 无法忽视、无法回避的历史潮流。互联网、物联网、云计算、智慧城市、智慧地球正在 使数据沿着"摩尔定律"飞速增长,一个与物理空间平行的数字空间正在形成。在新的数 字世界当中,数据成为最宝贵的生产要素,顺应趋势、积极谋变的国家和企业将乘势崛 起,成为新的领军者;无动于衷、墨守成规的组织将逐渐被边缘化,失去竞争的活力和 动力。毫无疑问,大数据正在开启一个崭新时代。 大数据时代有什么本质特征?大数据的来源是什么?大数据又将流向哪里?大 数据在提升政府治理、改善经济治理、再造公共服务模式、激发商业创新方面有哪些卓 越案例?中国需要怎么样的战略反应才能抓住大数据带来的宝贵机遇?一系列问题亟待 研究者给出深入解析。 "数据驱动发展"成为时代主题 如今,大数据已经被赋予多重战略含义。从资源的角度,数据被视为"未来的石 油",作为战略性资产进行管理;从国家治理角度,大数据被用来提升治理效率、重构治 理模式、破解治理难题,它将掀起一场国家治理革命;从经济增长角度,大数据是全球 经济低迷环境下的产业亮点,是战略新兴产业的最活跃部分;从国家安全角度,全球数 据空间没有国界边疆,大数据能力成为大国之间博弈和较量的利器。总之,国家竞争焦 点将从资本、土地、人口、资源转向数据空间,全球竞争版图将分成新的两大阵营:数 据强国与数据弱国。 宏观上看,由于大数据革命的系统性影响和深远意义,主要大国快速做出战略 响应,将大数据置于非常核心的位置,推出国家级创新战略计划。美国2012年发布《大数 据研究和发展计划》,并成立"大数据高级指导小组",2013年又推出"数据—知识—行动"计 划,2014年进一步发布《大数据:把握机遇,维护价值》政策报告,启动"公开数据行动" ,陆续公开50个门类的政府数据,鼓励商业部门进行开发和创新。欧盟正在力推《数据价 值链战略计划》,英国发布《英国数据能力发展战略规划》,日本发布《创建最尖端IT国家 宣言》,韩国提出"大数据中心战略"。中国多个省市发布了大数据发展战略,国家层面的 《关于促进大数据发展的行动纲要》也于2015年8月19日正式通过。 微观上看,大数据重塑了企业的发展战略和转型方向。美国的企业以GE提出的 "工业互联网"为代表,提出智能机器、智能生产系统、智能决策系统,将逐渐取代原有 的生产体系,构成一个"以数据为核心"智能化产业生态系统。德国企业以"工业4.0"为代 表,要通过信息物理系统(CPS——cyber physical system),把一切机器、物品、人、服务、建筑统统连接起来,形成一个高度整合的生 产系统。中国的企业以阿里巴巴董事局主席马云提出的"DT时代"(data technology)为代表,认为未来驱动发展的不再是石油、钢铁,而是数据。这三种新的 发展理念可谓异曲同工、如出一辙,共同宣告了"数据驱动发展"成为时代主题。 与此同时,大数据也是促进国家治理变革的基础性力量。正如《大数据时代》作 者舍恩伯格在定义中所强调的,"大数据是人们在大规模数据的基础上可以做到的事情, 而这些事情在小规模数据的基础上是无法完成的"。在国家治理领域,阳光政府、责任政 府、智慧政府建设,大数据为解决以往的"顽疾"和"痛点"提供了强大支撑;精准医疗、 个性化教育、社会监管、舆情监测预警,大数据使以往无法实现的环节变得简单、可操 作;大数据也使一些新的主题成为国家治理的重点,比如维护数据主权、开放数据资产 、保持在数字空间的国家竞争力等。 从哲学意义上来看,大数据不仅仅是一场技术革命,也不仅仅是一场管理革命 或者治理革命,它给人类的认知能力带来深刻变化,可谓是认识论的一次升华。具体而 言,大数据可以为决策者解决"四个问题",提升"两种能力"。一是解决"坐井观天"的问 题,以往人们决策只能基于视野之内极为有限的局部信息,和井底之蛙无异,大数据则 可以实现整个苍穹尽收眼底;二是解决"一叶障目"的问题,以往不具备全样本数据分析 能力,只能用小样本分析近似推理,犹如从"泰山"中取来"一叶",而真理可能存在于全 样本的海量数据之中,借助大数据则可完全克服;三是解决"瞎子摸象"的问题,七个瞎 子根本无法根据各自的认识加总出完整的大象,因为他们的信息是相互离散的,无法有 效关联起来,而大数据的基本优点是在深入关联中还原事物的原貌;四是解决"城门失火 ,殃及池鱼"的问题,人们习惯于因果分析,遇到这种"稀奇古怪"的因果链则很难前瞻和 推理,但大数据注重相关关系,可以准确地发掘出规律。提升两种能力,一个是"一叶知 秋"的能

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值